查看原文
其他

非均衡数据概述

李雪曈 狗熊会 2023-08-15
点击“蓝字”关注我们吧!



李雪曈,北京大学光华管理学院商务统计与经济计量系在读博士生,主要研究方向包括非均衡数据分析,网络结构数据分析,分布式计算等。




本文主要基于Guo等人(2017)、Kaur等人(2019)和Wang(2020)三篇文章对非均衡数据的背景、研究困难、解决方法和理论结果做了概述。

1. 背景介绍

1.1 什么是非均衡数据?

非均衡数据(rare events data或imbalanced data)是指正负样本极度不均衡的数据。这类数据是非常重要的一类数据,在生活中非常常见。举一些例子详细解释一下。在金融机构的风险管理中,银行的日常交易记录量很多,但是客户违约(如客户的还款行为逾期)发生频率极低,真实场景中违约客户占比约2%,甚至更低。若把客户违约记成1,为正样本(高风险客户),若把客户没有违约记成0,为负样本(低风险客户),则对高风险客户的识别是一个典型的不平衡学习问题。对于互联网中的广告投放问题,虽然广告通常有着比较高的曝光次数,但是被点击次数一般较低。若将广告被点击记成Y=1,为正样本,将广告未被点击记成Y=0,是负样本。据亚马逊官方统计,点击率(点击次数/曝光次数)达到0.5%已经较高了,因此是正负样本极不均衡的数据。在医学领域,医院有大量的病人的诊断记录,其中对于罕见病(比如癌症)的诊断,把患病记成Y=1,健康记成Y=0,是一个正负样本极不均衡的问题。对于政治事件,比如战争、暴乱、公民竞选公职等事件,由于战争和暴乱都是小概率发生的,那么如果把事件发生记成1,也是正负样本比例不均衡的问题。

罕见事件(rare events),即上述的正例,其发生频率较低而难以被发现,然而对罕见事件进行错误分类可能会导致高昂的成本。比如对于金融机构而言,如果将低风险客户误判为高风险客户,银行最多损失一部分贷款利息,而将高风险客户误判为低风险客户,银行损失的很可能是本金与利息之和。因此,能否对高风险客户进行精准识别,对金融机构风险管理至关重要。而对于一些罕见病、战乱等其他罕见事件的误判,更是可能给个人甚至国家造成巨大损失。

1.2 研究困难

尽管数据挖掘方法已被广泛应用于构建分类模型来指导商业和管理决策,但对非均衡数据进行分类极大地挑战了这些传统分类模型,原因有以下3点:

(1) 当面对不平衡的场景时,逻辑回归、支持向量机和决策树等标准分类器通常提供次优的分类结果,即对主要类别(Y=1)良好覆盖,而稀疏类别(Y=0)被扭曲(Fernández et al., 2013)。比如对于逻辑回归模型,King & Zeng (2001)发现其参数估计和预测概率都被低估。

(2) 预测精度等传统指标失效,即使预测模型产生较高的整体精度,罕见事件仍然未知(Loyola-González et al.,2016)。比如对于罕见病的预测,100个人中只有2个人患有此病,如果把所有人都预测成“健康”,准确率依然高达98%。但此时正样本完全被错判,而这正是我们关注的类别,因为这一类别错判带来的代价往往更高。

(3) 少数样本可能会被学习模型视为噪声。相反,噪声可能会被错误地识别为少数示例,因为它们都是数据空间中的罕见模式(Beyan and Fisher,2015)。

2. 目前的解决方法

2.1 基于数据

目前大多数分类器更适合均衡数据集的分类问题,因此有许多非均衡数据集的研究者希望对数据进行预处理,即使数据集达到均衡后再进行分类。基于数据处理非均衡问题一般分为降采样方法(down-sampling)、上采样方法(up-sampling)和混合抽样方法(hybrid sampling)。

图1 采样前后数据示例

降采样方法通过删除多类别的样本来生成更平衡数据集,见图1(b)。该方法优点是减少了训练时间。缺点是该做法可能会删掉一些有价值的样本,进而影响分类器的泛化能力。常用做法是随机降采样,但也正是由于其随机的缘故,若不加以改进,可能会破坏数据的分布,进而造成信息的缺失。因此学者们研究出一些改进算法,比如Yen和Lee(2009)提出对少数类样本进行聚类并选取了代表性样本作为训练集,尽可能提取具有代表性的少数类样本特征来优化训练效果。Ng等人(2014)通过对少数类样本进行聚类,选择每类中的代表性样本并计算样本的灵敏度,然后根据灵敏度选择样本作为训练集,以此保留更多的样本信息。

过抽样方法通过复制少类别样本的方法处理非平衡问题,见图1(c)。但是,随机重采样通过多次对少数类样本有放回随机采样,以增加少数类样本的比例,由于少数类中会有很多重复的样本,因此随机重采样可能会导致过拟合问题(Ganganwar, 2012)。因此学者们研究出一些改进算法,比如SMOTE方法通过在少类别样本的近邻中应用插值法创造新的少类别样本,而不再是简单的复制或赋予权重(Chawla et al., 2002)。然而该方法的缺点是仅对每一个少数类样本产生相同数量的合成数据,增加了样本重叠的可能性,导致产生的新数据没有任何信息。后续还有对SMOTE的改进算法,比如为了弥补SMOTE方法所带来的样本重叠效应,产生了一些自适应上采样方法,比如Borderline-SMOTE算法(Han et al., 2005)和ADASYN算法(He et al., 2005)等。

混合采样则是上述两种方法的结合,同时复制少类别样本和删除多类别的样本,见图1(d)。具体做法比如Batista等人(2004)利用 SMOTE 生成新少数类样本,并利用 ENN 算法剔除新数据集中的低效或无效样本点,保留有效信息并去除样本中噪声重叠样本,减轻了边界模糊问题。Li 和Zhang(2021)提出利用K-outlier将数据分为边界与非边界两种,并将边界样本上采样,非边界样本数据降采样来提升分类效果。

表1 对抽样方法的总结(Kaur et al., 2019)

表1是Kaur(2019)等人对抽样方法的总结。以上方法的效果因数据而异,并且最佳的采样比例对模型效果的提升可能需要多次的实验得出。幸运的是,第三方库imbalance-learn已经实现这些采样算法,其使用方法与sklearn相同,因此我们可以不必纠结于算法的实现,专心解决样本失衡问题,官方文档见http://glemaitre.github.io/imbalanced-learn/api.html#。

2.2 代价敏感学习(cost sensitive learning)

代价敏感学习根据不同分类的代价不同,使分类器更关注分类代价高的数据。代价敏感学习的其主要思想是利用代价矩阵使得不同的分类错误导致不同的惩罚力度,其中是对于二分类问题是一个的矩阵,的非对角线元素代表错判代价,取值越大, 表明该错误分类所导致的损失越大。此时,我们将测试样本分类为第类, 这里。其中表示将样本分类为第类的期望损失, 表示样本属于第类的后验概率, 表示将第类样本分类为第类的错分代价。当代价矩阵的所有元素值均为1时,代价敏感学习将退化为追求最低分类错误率的传统分类学习算法。

这种思想在不同的分类器上被广泛应用。Cao等人(2013)将评估度量(AUC和G均值)直接纳入成本敏感SVM的目标函数,通过同时优化特征子集、模型参数和误分类成本参数的最佳对来提高分类性能。Palacios等人(2014)提出了FURIA算法,用于处理非均衡数据分布的模糊规则的成本敏感学习。Qiu等人(2017)提出了用于成本敏感学习的随机选择决策树,采用随机策略来代替贪婪策略来指导分割,不仅保持较高的分类精度,同时降低了总测试成本。

表2 对代价敏感学习方法的总结(Kaur et al., 2019)

表2是Kaur(2019)等人对代价敏感学习方法的总结。同采样方法相比,代价敏感学习方法具有更低的时间复杂度,因此更适合于大数据样本。缺点在于很难确定代价敏感矩阵的值。

2.3 集成算法

集成算法是指通过组合基础分类器来提高单个分类器的性能(López et al., 2013)。可分为基于迭代的集成方法和基于并行的集成方法。

基于迭代的集成方法中,大多数方法都是基于Freund和Schapire(1996)提出的Adaboost算法。基于并行的集成方法是指可以并行训练每个基础分类器的集合模型,流程示意图见图2。Sun等人(2007)将代价敏感学习融合到Adaboost算法中,提出了AdaC1、AdaC2和AdaC3三个算法。Seiffert等人(2009)提出了RUSBoost和SMOTEBoost,先使用预处理后的平衡数据集,再使用Adaboost分类器进行分类。EasyEnsemble方法是使用多个Adaboost分类器,对于每个分类器,将负例样本降采样与少数类组成一个子数据集训练(Liu et al., 2008)。BalanceCascade方法利用级联策略不断删减多数类样本,最后集成所有弱分类器得到强分类器(Pujol et al., 2009)。imblearn.ensemble中还有其他的处理不平衡数据的集成算法,欢迎大家阅读官方文档(http://glemaitre.github.io/imbalanced-learn/api.html#module-imblearn.ensemble)。

图2 基于并行的集成学习的流程示意图

3. 理论研究

以上仅仅介绍总结了实践应用中常用的做法,但是缺乏理论支撑,下面参考Wang(2020)这篇文章来介绍一下关于随机降采样和随机上采样方法所产生的参数估计的理论性质。这篇文章先给出了关于非平衡数据的定义,其次给出了降采样和上采样得到的估计的统计学性质。这里做出简单概述,更详细的结果和证明请读者阅读Wang(2020)。

假设共有n条观测值,全部数据的集合记成,其中是p维的协变量,是响应变量,取值0或1。这里考虑经典的逻辑回归模型来描述的关系,公式如下所示,

其中我们关注的参数是。从数学的角度描述不均衡数据,需要满足2个条件:
第一个条件说明,随着样本量趋于无穷,正例发生的概率趋于0。第二个条件说明,随着样本量趋于无穷,正例的数量也趋于无穷。

根据刚刚介绍的条件,逻辑回归模型已经不是平凡的回归模型,因此参数估计也是不平凡的。首先,考虑全局MLE的情况,即使用全部数据去求MLE,此时损失函数和平凡的逻辑回归一样,但是参数估计的收敛速度为,说明收敛速率由正例样本量的阶数决定,再多的负例对收敛速度的提升没有帮助。

接着先介绍了两个降采样估计,即正例全部使用,负例以的概率被随机抽取,然后基于降采样后的样本做参数估计。第一个是基于加权似然函数的降采样估计。此时加权似然为

其中。通过极大化可以得到。第二个是基于未加权似然函数的降采样估计。此时有
进一步地,记,其中。关于两个估计量的渐进性质见原文章的定理2和3。定理结果说明得到的降采样估计,其收敛速度不变,但是当降采样后负例的数目和正例数目可比时,统计学效率依然有损失,其中的统计学效率损失更大。此时两个估计量相比,推荐使用

最后介绍了两个上采样估计,即正例全部使用,负例重复抽取,然后基于上采样后的样本做参数估计。第一个是基于加权似然函数的上采样估计。此时加权似然为

其中。通过极大化可以得到。第二个是基于未加权似然函数的上采样估计。此时有
。关于两个估计量的渐进性质见原文章的定理4和5。定理结果说明得到的上采样估计,其收敛速度不变,但是其统计学效率有损失,其中的统计学效率损失更大。此时两个估计量相比,推荐使用

4. 未来研究方向

尽管我们已经介绍了很多处理非均衡数据的方法,但是还有一些问题亟待解决:

1)集成方法的多样性:Wang和Yao(2009)发现集成方法中模型的准确性和分类器的多样性之间的权衡关系仍不清楚。此外,管分类器的剪枝操作可以在增加集合多样性和避免过度拟合方面发挥强大作用,但许多基础分类器仍需要在剪枝过程之前进行训练和评估,这非常耗时。在未来的研究中,需要更有效地构建一个集成模型,以整合多样性和精确的弱分类器。

2)自适应算法:从大多数研究中,我们没有发现在所有基准测试中都表现很好的特定算法。对于不同类型的数据集,分类器的性能不同。所以如何针对不同类型的非均衡数据,自适应地选择详细的算法来组成集成框架,是个值得研究的问题。除了集成模型的自适应学习之外,自适应选择信息实例以重新采样以及自动学习最佳采样率的方法、学习成本敏感学习的成本矩阵等等也是未来的研究方向。

3)在线学习:基于非均衡数据的在线学习很重要,其应用场景广泛,比如垃圾邮件识别、控制监控系统的故障诊断与网络入侵检测。对于非均衡的流数据,一大难点就是非均衡的比率一直在变动,且没有关于数据分布的先验信息,这给准确预测带来困难。因此基于非均衡数据的在线学习也是一个亟待研究的问题。

参考文献

[1] Beyan C, Fisher R. Classifying imbalanced data sets using similarity based hierarchical decomposition[J]. Pattern Recognition, 2015, 48(5): 1653-1672.

[2] Batista G E, Prati R C, Monard M C. A study of the behavior of several methods for balancing machine learning training data[J]. ACM SIGKDD explorations newsletter, 2004, 6(1): 20-29.

[3] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelligence research, 2002, 16: 321-357.

[4] Cao P, Zhao D, Zaiane O. An optimized cost-sensitive SVM for imbalanced data learning[C]//Pacific-Asia conference on knowledge discovery and data mining. Springer, Berlin, Heidelberg, 2013: 280-292.

[5] Fernández A, LóPez V, Galar M, et al. Analysing the classification of imbalanced data-sets with multiple classes: Binarization techniques and ad-hoc approaches[J]. Knowledge-based systems, 2013, 42: 97-110.

[6] Freund Y, Schapire R E. Schapire R: Experiments with a new boosting algorithm[C]//in: Thirteenth International Conference on ML. 1996.

[7] Ganganwar V. An overview of classification algorithms for imbalanced datasets[J]. International Journal of Emerging Technology and Advanced Engineering, 2012, 2(4): 42-47.

[8] He H, Bai Y, Garcia E A, et al. ADASYN: Adaptive synthetic sampling approach for imbalanced learning[C]//2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). IEEE, 2008: 1322-1328.

[9] Han H, Wang W Y, Mao B H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[C]//International conference on intelligent computing. Springer, Berlin, Heidelberg, 2005: 878-887.

[10] Haixiang G, Yijing L, Shang J, et al. Learning from class-imbalanced data: Review of methods and applications[J]. Expert systems with applications, 2017, 73: 220-239.

[11] Kaur H, Pannu H S, Malhi A K. A systematic review on imbalanced data challenges in machine learning: Applications and solutions[J]. ACM Computing Surveys (CSUR), 2019, 52(4): 1-36.

[12] King G, Zeng L. Logistic regression in rare events data[J]. Political analysis, 2001, 9(2): 137-163.

[13] Loyola-González O, Martínez-Trinidad J F, Carrasco-Ochoa J A, et al. Study of the impact of resampling methods for contrast pattern based classifiers in imbalanced databases[J]. Neurocomputing, 2016, 175: 935-947.

[14] Liu X Y, Wu J, Zhou Z H. Exploratory undersampling for class-imbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2008, 39(2): 539-550. [15] Li X, Zhang L. Unbalanced data processing using deep sparse learning technique[J]. Future Generation Computer Systems, 2021, 125: 480-484.

[16] Ng W W Y, Hu J, Yeung D S, et al. Diversified sensitivity-based undersampling for imbalance classification problems[J]. IEEE transactions on cybernetics, 2014, 45(11): 2402-2412.

[17] Pujol O, Masip D. Geometry-based ensembles: toward a structural characterization of the classification boundary[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(6): 1140-1146.

[18] Palacios A, Trawiński K, Cordón O, et al. Cost-sensitive learning of fuzzy rules for imbalanced classification problems using FURIA[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2014, 22(05): 643-675.

[19] Qiu C, Jiang L, Li C. Randomly selected decision tree for test-cost sensitive learning[J]. Applied Soft Computing, 2017, 53: 27-33.

[20] Seiffert C, Khoshgoftaar T M, Van Hulse J, et al. RUSBoost: A hybrid approach to alleviating class imbalance[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2009, 40(1): 185-197.

[21] Sun Y, Kamel M S, Wong A K C, et al. Cost-sensitive boosting for classification of imbalanced data[J]. Pattern recognition, 2007, 40(12): 3358-3378.

[22] Wang H Y. Logistic regression for massive data with rare events[C]//International Conference on Machine Learning. PMLR, 2020: 9829-9836.

[23] Yen S J, Lee Y S. Cluster-based under-sampling approaches for imbalanced data distributions[J]. Expert Systems with Applications, 2009, 36(3): 5718-5727.


点击此处“阅读全文”查看更多内容


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存